Qu’est ce que l’AFM ?

L’Analyse Factorielle Multiple (AFM) est une méthode d’analyse de données multivariées permettant de résumer et de visualiser un tableau de données complexe, dans lequel les individus sont décrits par plusieurs ensembles de variables (quantitatives et qualitatives) structurés en groupes.
L’AFM prend en compte la contribution de tous les groupes actifs de variables afin de définir la distance entre les individus. Le nombre de variable dans chaque groupe peut différer et la nature des variables peut varier dans groupe à l’autre, mais les variables doivent être de même nature dans un groupe donné.
Cette analyse globale, dans laquelle plusieurs ensembles de variables sont considérés simultanément, nécessite d’équilibrer les influences de chaque ensemble de variables. Par conséquent, dans l’AFM, les variables sont pondérées lors de l’analyse. Les variables du même groupe sont normalisées en utilisant la même valeur de pondération, qui peut varier d’un groupe à l’autre. Techniquement, l’AFM attribue à chaque variable du groupe j, un poids égal à l’inverse de la première valeur propre de l’analyse de l’ACP du groupe j.

L’analyse factorielle multiple peut être utilisée dans de nombreux domaines où les variables sont organisées en groupes.
Dans notre cas, on se trouve dans un contexte où un même individu (une souris) est observé à des temps différents. Dans cette situation, il existe deux façons de définir les groupes de variables :
- On peut rassembler les variables observées au même temps dans un groupe.
- Lorsque les variables sont identiques d’une date à l’autre, chaque ensemble peut rassembler les différentes dates pour une même variable.
Nous allons appliquer la première méthode dans laquelle les variables observées sont regroupées par temps.

Analyse Factorielle Multiple

Pourcentage de variance expliquée par chaque axes

Les deux premières dimensions permettent d’expliquer 41% de la variance totale de nos données. Le critère du coude semble nous indique de conserver les deux premières dimensions de l’AFM.

Groupes de variables

Le graphique ci-dessous illustre la corrélation entre les groupes et les dimensions. Les coordonnées des 5 groupes actifs (les 5 temps) sur la première dimension sont presque identiques. Cela signifie qu’ils contribuent de manière similaire à la première dimension. En ce qui concerne la deuxième dimension, les groupes 1 month, 2 months, 3 months ont des coordonnées beaucoup plus élevée que les groupes before-surgery et 1 week, ce qui signifie qu’ils contribuent davantage sur la deuxième dimension. De plus, on observe que la variable groupe placée en supplémentaire (ce qui signifie qu’elle ne contribue pas à la construction des axes) est fortement corrélée à la deuxième dimension et quasiment pas à la première ; ce qui indique que c’est la deuxième dimension qui permet de discrimer sur le groupe.

Visualisation des groupes

Contribution dimension 1 & 2

Contribution des variables

Après avoir analysé l’impact des groupes sur chaque dimension. On cherche à savoir au sein de chaque groupe (temps) quelles sont les variables les effets des variables sur les dimensions.

Cercle de corrélation

Le cercle de corrélation ci-dessous montre l’association entre les variables, la qualité de représentation des variables, ainsi que la corrélation entre les variables et les dimensions : - les variables corrélées positivement sont regroupées, tandis que celles corrélées négativement sont positionnées sur les côtés opposés de l’origine du graphique. - la distance entre les variables et l’orgine mesure la qualité des variables sur le graphique. Plus un point variable est loin de l’origine meilleure est sa représentation. - Pour une dimension donnée, les variables les plus corrélées à la dimension sont proches de la dimension.

Top 10 variables

On représente le cercle de corrélation pour les deux premières dimensions, en représentant uniquement les 10 variables qui contribuent le plus à la construction des deux premières dimensions.

Variables qui contribuent à l’axe 2

On représente le cercle de corrélation pour les deux premières dimensions, en représentant uniquement les variables qui contribuent à la construction de la deuxième dimension.

Contribution des variables

On représente la contribution de chaque variable à la définition des dimensions 1 puis 2, les variables sont colorées par groupe. La ligne en pointillé rouge sur le graphique indique la valeur moyenne attendue, si les contributions étaient uniformes. Ainsi une variable contribue fortement lorsque sa contribution se situe au dessus de cette ligne.

Dimension 1

On observe que les variables qui contribuent à la dimension 1 sont :

  • log_time_to_cross 3 months
  • log_time_to_cross 2 months
  • front_limb before surgery
  • sqrt_nb_of_errors before surgery
  • log_time_to_cross before surgery
  • front_limb 1 months
  • sqrt_nb_of_errors 1 week
  • front_limb 2 months

Dimension 2

Les variables qui contribuent à la dimension 2 sont :

  • sqrt_nb_of_errors 2 months
  • sqrt_nb_of_errors 3 months
  • sqrt_nb_of_errors 1 month
  • front_limb 1 month
  • front_limb 3 months
  • speed
  • front_limb 2 months

Graphique des individus

Les individus ayant des profils similaires sont proches sur le graphique. On observe que les individus du groupe des MS se placent dans la partie supérieure du graphique, tandis que les individus du groupe de HD et NG se placent dans la partie inférieure, de plus on n’arrive pas à distinguer ces deux groupes. Il s’agit donc de la deuxième dimension qui distingue les groupes

Affichage du groupe

Affichage du donneur

Clustering sur les dimensions de l’AFM

On réalise enfin un apprentissage non supervisé à partir de l’AFM, afin de savoir si on retrouve les groupes auxquels appartiennent les souris.
On obtient que l’on arrive très bien à repérer les MS seulement un faux positif et 2 faux négatifs, de plus on a du mal à distinguer les HD des NG.

Dendogramme

Clustering 3D

CLustering

Modèles mixtes sur le score composite

Comme vu précédemment, il s’agit de la deuxième composante principale de l’AFM qui permet de distinguer le groupe des MS des deux autres groupes, l’idée va donc être d’utiliser cette deuxième composante comme un score composite qui résume l’information des autres scores.

Graphique en trellis

Modélisation

Temps discret

Temps comme continu

Résumé et comparaison des modèles

Comparaison des deux modèles
  Model 1 Model 2
(Intercept) -1.01 (0.34)** -0.29 (0.36)
time1 week 0.40 (0.47)  
time1 month 0.71 (0.47)  
time2 months -0.03 (0.47)  
time3 months -0.94 (0.47)*  
groupHD 0.97 (0.45)* 0.87 (0.47)
groupMS 1.55 (0.42)*** 0.03 (0.44)
time1 week:groupHD -0.51 (0.62)  
time1 month:groupHD -2.74 (0.62)***  
time2 months:groupHD -1.87 (0.62)**  
time3 months:groupHD -1.30 (0.62)*  
time1 week:groupMS -0.54 (0.58)  
time1 month:groupMS 0.34 (0.58)  
time2 months:groupMS 1.35 (0.58)*  
time3 months:groupMS 2.97 (0.58)***  
num_time   -0.23 (0.13)
num_time:groupHD   -0.40 (0.17)*
num_time:groupMS   0.78 (0.16)***
AIC 1606.88 1591.52
BIC 1675.96 1632.16
Log Likelihood -786.44 -785.76
Num. obs. 430 430
Num. groups: id 86 86
Var: id (Intercept) 0.11 0.54
Var: Residual 2.20 1.85
Var: id num_time   0.16
Cov: id (Intercept) num_time   -0.30
***p < 0.001; **p < 0.01; *p < 0.05

Analyse des individus

Before surgery

1 Week

1 Month

2 Months

3 Months